BUNDESRipUBLI K DE UTSC(gjuAND 



priority 
Document 

SUBMITTED OR TRANSMITTED rN 
COMPLIANCE WITH RULE 17.1(a) OR (b) 

D£ j 




Bescheinigung 



PGT/DE S9 / 00 0 60 

AND 






Die Siemens Aktiengesellschaft in Munchen/Deutschland hat eine Patentanmeldung 
unter der Bezeichnung 

"Datenverarbeitungssystem oder Kommunikationsendgerat mit einer 
Einrichtung zur Erkennung gesprochener Sprache und Verfahren 
zur Erkennung bestimimter akustischer Objekte" 

am 6. November 1998 beim Deutschen Patent- und Markenamt eingereicht. 

Die angehefteten Stucke sind eine richtige und genaue Wiedergabe der urspriing- 
lichen Unterlagen dieser Patentanmeldung. 

Die Anmeldung hat im Deutschen Patent- und Markenamt vorlaufig das Symbol 
G 10 L 15/22 der Internationalen Patentklassifikation erhalten. 



Munchen, den 2. Februar 1999 
Deutsches Patent- und Markenamt 
Der President 
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Beschreibung 

Datenverarbeitungssystem oder Kommunikationsendgerat mit ei- 
ner Einrichtung zur Erkennung gesprochener Sprache und Ver- 
fahren zur Erkennung bestimmter akustischer Objekte 

Einrichtungen und Verfahren zur Erkennung naturlicher gespro- 
chener Sprache sind dem Fachmann heute aus einer Vielzahl un- 
terschiedlicher Anwendungen gelaufig. Die praktische Anwend- 
barkeit und Leistungsf ahigkeit derartiger Systeme hangt dabei 
stark von ihrer Komplexitat und der Breite ihres Anwendungs- 
bereiches ab. Generell gilt dabei, dali die Erkennungsrate ei- 
nes solchen Systems mit steigender Zahl der zu erkennenden 
akustischen Objekte (Worte, Phoneme, Einzelbuchstaben, etc.) 
gewohnlich stark abnimmt . Gleichzeitig steigt der Aufwand ge- 
messen nach Kosten und Platzbedarf aber auch im Hinblick auf 
den Trainingsaufwand meist stark mit der Anwendungsbreite an. 

Fur viele Anwendungen kommen herkommliche Spracherkennungssy- 
steme deshalb noch immer nicht zum Einsatz, obwohl sie aus 
Sicht des Anwenders grundsatzlich dafUr geeignet waren. Der 
Erfindung liegt daher die Aufgabe zugrunde, eine technische 
Lehre anzugeben, die den Einsatz der Spracherkennung auch fur 
solche Anwendungen ermoglicht, bei denen ein grofierer Aufwand 
sich aus wirtschaft lichen oder anderen Grunden verbietet. 
Diese Aufgabe wird durch ein Datenverarbeitungssystem oder 
Kommunikationsendgerat mit einer Einrichtung zur Erkennung 
gesprochener Sprache oder durch ein Verfahren zur Erkennung 
bestimmter akustischer Objekte nach einem der Patentanspruche 
gelost . 

Das erfindungsgemalie Erzeugnis, ein Datenverarbeitungssystem 
oder ein Kommunikationsendgerat, verfiigt iiber eine Einrich- 
tung zur Erkennung gesprochener Sprache, die speziell zur Er- 
kennung bestimmter akustischer Objekte, namlich von Einzel- 
buchstaben, Buchstabenkombinationen oder Steuerbef ehlen ein- 
gerichtet oder speziell zur Erkennung solcher Objekte konfi- 
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zugte Ausftihrungsform z.B. die Ausgabe oder Anzeige von A02 
nach der Ausgabe des f alscherkannten Objekts A01, oder ahnli- 
che Maflnahmen zur Unterstutzung einer fur den Benutzer mog- 
lichst komfortablen Korrektur des Erkennungsf ehlers . Ein raog- 
liche Wahl fur ein solches besonderes akustisches Objekt oder 
einen solchen Steuerbefehl ware z.B. das Wort "Falsch". Dem 
Fachmann fallt es nicht schwer, sich anhand der vorliegenden 
Darstellung weitere Anwendungsmoglichkeiten fur diese Ausfiih- 
rungsform der vorliegenden Erfindung zu uberlegen. 

Weitere bevorzugte Ausf lihrungsf ormen der vorliegenden Erfin- 
dung sind Gegenstand weiterer Unteranspruche . 

Im folgenden wird die Erfindung anhand bevorzugter Ausfuh- 
rungsbeispiele und mit Hilfe von Figuren naher erlautert. 

Figur 1 zeigt in schematischer Weise Aufbau und Funktions- 
weise einer bevorzugten Ausftihrungsform einer erf indungsgema- 
Ben Vorrichtung. 

Wie in Figur 1 dargestellt, umfafit diese Ausf iihrungs form ei- 
nes erf indungsgemailen Datenverarbeitungssystems (DPCD) oder 
Kommunikationsendgerates (DPCD) eine Spracherkennungseinheit 
(SRU) , die von einem Benutzer der Vorrichtung gesprochene 
akustische Objekte (AO) erkennt und die erkannten akustischen 
Objekte (RAO) einer Einrichtung zur akustischen Ausgabe oder 
optischen Anzeige (DU) zufuhrt. Gemafi der vorliegenden Erfin- 
dung ist die Spracherkennungseinrichtung speziell zur Erken- 
nung bestimmter akustischer Objekte (AO), namlich von Ein- 
zelbuchstaben, Buchstabenkombinationen oder Steuerbef ehlen 
eingerichtet oder kann speziell zur Erkennung solcher Objekte 
konfiguriert werden. 

Die Spracherkennungseinrichtung ordnet also jeweils einem vom 
Benutzer gesprochenen akustischen Objekt (AO) ein von dieser 
Einrichtung erkanntes akustisches Objekt (RAO) zu. Da die Er- 
kennung natiirlicher, gesprochener Sprache schon aus prinzipi- 
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Objekt in einem bestimmten Sinne nachf olgenden Objektes be- 
wirkt. Die Folge der Objekte mufl dabei nicht iiber die Grolie 
von Erkennungswahrscheinlichkeiten oder Plausibilitatswerten 
festgelegt sein, sondern kann auch durch die Abfolge von Ein- 
5 tragen in einer Speichereinrichtung (MU) der Vorrichtung, 
oder durch alphabetische oder innerhalb eines definierten 
Kontextes semantisch definierte Abfolgen von Objekten gegeben 
sein. Zum Beispiel konnte die Abfolge der Objekte durch die 
Ordnung innerhalb einer Datenbank, eines Telef onbuches oder 
10 durch die Struktur einer in der Speichereinrichtung gespei- 
cherten Datei, z.B. einer Kundendatei, eines Worterbuches, 
^^^^ oder ahnlicher Dateien gegeben sein. 

Wenn in dieser Patentanmeldung von Einrichtungen die Rede 
15 ist, die fur eine bestimmte Funktion oder Betriebsweise ein- 
gerichtet sind oder konfiguriert werden konnen, dann ist da- 
mit gemeint, daii die entsprechenden Funktionsmerkmale dieser 
Einrichtungen dauerhaft oder zeitlich begrenzt sein konnen. 
Ferner konnen diese Einrichtungen von alien Beteiligten zwi- 
20 schen Hersteller und Anwender durch Herstellprozesse, Ein- 

stellungen an der Hardware oder durch Verwendung oder Parame- 
trierung einer Software oder gleichwirkende Mittel oder Mali- 
nahmen fur eine bestimmte Funktion oder Betriebsweise einge- 
richtet oder konfiguriert werden. Dem Fachmann erschliefien 
^^^A sich anhand dieser Beschreibung ohne weiteres zahlreiche ahn- 
liche oder gleichwertige Mittel oder Mafinahmen fur diesen 
Zweck. 

Eine Spracherkennungseinrichtung wird vorzugsweise durch eine 
30 geeignete Auswahl oder Parametrierung der Software eingerich- 
tet oder konfiguriert, die die gewunschte Funktion im Spra- 
cherkennungsalgorithmus und oder die Ablauf steuerung dieser 
Einrichtung realisiert. Ein Datenspeicher wird vorzugsweise 
durch eine geeignete Auswahl oder Parametrierung der Daten- 
35 struktur, z.B. der Datenbankstruktur , eingerichtet oder kon- 
figuriert, die die Art der Speicherung der Daten auf diesem 
Speicher und die Art des Zugriffs auf diese Daten definiert. 
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erkennenden Objekte nach seiner Wahl ( voriibergehend oder dau- 
erhaft) auf eine bestimmte Untermenge wie z.B. Einzelbuchsta- 
ben, Buchstabenkombinationen oder Steuerbef ehle einschranken 
kann. 

Mit der vorliegenden Erfindung kann insbesondere die Anzahl 
der durch Sprachwahl abrufbaren Telef oneintrage in einem Mo- 
biltelefon oder Schnurlostelef on oder in einem drahtgebunde- 
nen Telefon beliebig vergroliert werden. Bei herkommlichen Sy- 
stemen dieser Art wurde nur eine begrenzte Zahl von Eintragen 
fur eine Sprachwahl zugelassen, erf ahrungsgemali maximal 2 0 
oder 30 Eintrage. Dies war durch den bereitzustellenden Spei- 
cherplatz fur die wiederzuerkennenden Sprachsamples, d.h. 
durch durch die daraus entstehenden Kosten und den Platzbe- 
darf bedingt. Wurde die Zahl der Eintrage weiter erhoht, 
stieg erf ahrungsgemali der Aufwand fur das Training der Spra- 
cherkennung erheblich, was zu einer geringeren Benutzerakzep- 
tanz fiihrte. 

Gemafl einer bevorzugten Ausfuhrungsf orm der vorliegenden Er- 
findung wird der Spracherkennungsalgorithmus vom Benutzer nur 
auf die Buchstaben des Alphabets und gegebenenf alls Kombina- 
tionen und einige wenige Steuerbef ehle trainiert. Er wird auf 
diese Weise vom Benutzer zur Erkennung dieser akustischen Ob- 
jekte eingerichtet oder entsprechend konf iguriert . Die Ab- 
frage erfolgt durch akustische Eingabe von Anfangs- und 
( vorzugsweise bis zu zwei) Folgebuchstaben . Fehlerkennungen 
werden durch Plausibilitatsprufungen, d.h. z.B. durch Ver- 
gleich der Objekte mit Eintragen in einer Speichereinrich- 
tung, vermindert. Die eingegebenen Namen werden nur einmal 
eingesprochen und in einem Coder mit geringer Bitrate (z.B. 
half-rate von GSM) gewandelt und unter dem entsprechenden 
Speicherplatz, gegebenenf alls komprimiert, gespeichert . 

Alternativ kann auch ein Syntheseprogramm verwendet werden, 
das aus einem Namen Sprache synthetisiert , was eventuell we- 
niger Speicherplat z erfordert. In jedem Fall mui3 die Spra- 
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Patentansprliche 

1. Datenverarbeitungssystem (DPCD) oder Kommunikationsendge- 
rat (DPCD) mit einer Einrichtung (SRU) zur Erkennung gespro- 
chener Sprache mit folgenden Merkmalen: 

a) die Einrichtung zur Spracherkennung ist speziell zur Er- 
kennung bestimmter akustischer Objekte (AO), namlich von Ein- 
zelbuchstaben, Buchstabenkombinationen oder Steuerbef ehlen 
eingerichtet oder kann speziell zur Erkennung solcher Objekte 
konfiguriert werden; 

b) es ist eine Einrichtung zur akustischen Ausgabe (DU) oder 
optischen Anzeige (DU) erkannter akustischer Objekte (RAO) 
vorgesehen. 

2. Vorrichtung nach Anspruch 1, deren Einrichtung zur Spra- 
cherkennung (SRU) so eingerichtet ist oder konfiguriert wer- 
den kann, dafi die Erkennung eines bestimmten ersten Steuerbe- 
fehls im Anschlufi an die Ausgabe oder Anzeige eines akusti- 
schen Objektes die Ausgabe oder Anzeige eines weiteren aku- 
stischen Objektes bewirkt. 

3. Vorrichtung nach einem der vorhergehenden Anspruche mit 
einem Datenspeicher (MU) , die so eingerichtet ist oder konfi- 
guriert werden kann, dafi die Erkennung eines akustischen Ob- 
jekts oder einer Folge von Objekten das bzw. die einem Ein- 
trag in dem Datenspeicher entspricht bzw. entsprechen, die 
Anzeige oder Ausgabe dieses Eintrages (ME) oder eine mit die- 
sem Eintrag verbundene Funktion (FU) der Vorrichtung bewirkt. 

4. Vorrichtung nach Anspruch 3, bei der die Erkennungslei- 
stung durch einen Vergleich moglicher Objekte oder Objektfol- 
gen mit vorhandenen Eintragen im Datenspeicher (MU) verbes- 
sert wird. 
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9. Verfahren nach einem der vorhergehenden Verf ahrensansprii- 
che, bei dem die Erkennungsleistung durch einen Vergleich 
mdglicher Objekte oder Objektfolgen mit vorhandenen Eintragen 
im Datenspeicher verbessert wird. 

10. Verfahren nach einem der vorhergehenden Ver f ahrensansprii- 
che, dessen Spracherkennungsalgorithmus mit Hilfe bestimmter 
Steuerbefehle in spezielle Betriebszustande zur Erkennung von 
Einzelbuchstaben, Buchstabenkombinationen oder Steuerbef ehlen 
gebracht werden kann. 



